NER | Nope...

Wed 4 Mar 2026

Catégories:
Blog

Quand spaCy ne voit pas l'infrastructure : le problème NLP des logs de sécurité

Quand spaCy ne voit pas l’infrastructure : le problème NLP des logs de sécurité Avant d’envoyer des logs à un éditeur de logiciels pour investigation, à un LLM externe pour analyse, ou simplement de les archiver conformément au RGPD, une question s’impose : ces logs contiennent-ils des informations qui exposent mon infrastructure ? La réponse est presque toujours oui. Et les outils NLP standards — aussi performants soient-ils sur le langage courant — sont largement aveugles aux entités spécifiques au domaine de la sécurité. Read More...

Tagged NLP, NER, Anonymisation, Logs, spaCy, Sécurité, RGPD, MLOps, Cybersécurité, PII

Wed 4 Mar 2026

Catégories:
Blog

Cartographier les logs disponibles : le problème du corpus pour l'anonymisation

Cartographier les logs disponibles : le problème du corpus pour l’anonymisation Entraîner un agent d’anonymisation pose un problème paradoxal : les données les plus utiles à l’entraînement sont précisément celles que personne ne partage. Les logs réels de production contiennent exactement les entités sensibles qu’on cherche à détecter — et c’est pour ça qu’ils restent dans les datacenters. Cette contrainte a des conséquences directes sur la qualité des modèles. Cet article recense les corpus disponibles, leur niveau de sanitisation, leur densité en entités sensibles, et la façon dont on peut les compléter par des données synthétiques. Read More...

Tagged NLP, Dataset, Logs, Anonymisation, LogHub, SDLog, Cybersécurité, Corpus, Windows, Linux, NER

Wed 4 Mar 2026

Catégories:
Blog

Entraîner un NER sécurité : du corpus annoté au modèle en production

Entraîner un NER sécurité : du corpus annoté au modèle en production Les entités de sécurité que spaCy standard ne détecte pas ne sont pas impossibles à apprendre — elles sont simplement absentes de ses données d’entraînement. La solution n’est pas de remplacer spaCy par un LLM lourd, mais d’entraîner le composant NER de spaCy sur des exemples spécifiques au domaine. Ce chemin — annotation LLM-assistée → fine-tuning spaCy → modèle production léger — est à la fois robuste et déployable sans GPU. Read More...

Tagged NLP, NER, spaCy, Fine-tuning, Anonymisation, Logs, Cybersécurité, MLOps, Dataset

Articles dans NER...

Quand spaCy ne voit pas l'infrastructure : le problème NLP des logs de sécurité

Cartographier les logs disponibles : le problème du corpus pour l'anonymisation

Entraîner un NER sécurité : du corpus annoté au modèle en production